再创佳绩~INTERSPEECH 2022录用12篇天津大学-慧言科技人工智能联合实验室论文!
点击上方关注我们
Language-specific Characteristic Assistance for Code-switching Speech Recognition
针对当前Code-switching语音识别所使用的主流Dual-Encoder结构在训练和解码阶段未充分利用语言特定信息的问题。我们提出了语言特定特征辅助(LSCA)算法:在训练阶段通过将语言特定的损失与混合损失进行差值,对语言特定的Encoder进行语言上的约束,从而缓解在训练阶段语言特定的编码器产生语言上的偏移影响模型表现的问题;在解码阶段,将语言特定的输出与共享层的输出概率进行差值,充分利用语言特定的知识。同时我们所提出的训练和解码方法可以单独使用,也可以组合使用。相比Dual-Encoder的基线系统,我们所提出的方法在实验所使用的数据集上相对错误率提升最高可以达到15.4%。同时我们的方法也可以直接利用两个训练好的单语模型,而不需要共享层,甚至在混合语料上训练,就可以应用到双语语音识别的场景。这为直接利用大规模训练好的单语模型来处理双语语音识别提供了一个解决方法。
Finer-grained Modeling units-based Meta-Learning for Low-resource Tibetan Speech Recognition
藏语由于使用人口较少,是一种典型的低数据资源语言。目前有效的方法是基于迁移学习和多语言训练的字级别的端到端自动语音识别(ASR),一定程度上缓解了资源不足的问题,但此类方法总是遇到过拟合问题。最近被提出的元学习很好的解决了过拟合问题。然而,广泛使用的粗粒度建模单元与其发音没有显著相关性,这限制了低资源ASR系统的性能提升。此外,元学习包含元训练和在目标语言上快速自适应两个阶段,过去的元训练阶段缺乏目标语言特定的知识。因此,本文提出了一种基于细粒度建模单元和迁移学习的新型端到端低数据资源拉萨方言ASR模型,并在训练时利用了汉语拼音与藏部件的相似特性。汉语拼音和藏文分解后的藏部件相关性更高,可以在资源匮乏的情况下补偿更多的声学信息。此外,藏文建模单元用于元训练和快速自适应过程,以提供特定语言的信息来解决资源不足的问题。实验表明,我们提出的方法比基线系统实现了 54.9% 的相对字符错误减少率。
Improve emotional speech synthesis quality by learning explicit and implicit representations with semi-supervised training
现有的情绪语音合成系统通常只从参考音频中提取情绪信息,而忽略文本中隐含的情绪信息。本文我们提出了一种新的模型,通过半监督训练学习显性和隐形表征来提高情绪语音合成质量。考虑到句子和文本情绪分类(TSC)任务之间的依赖关系,除了参考音频中的显性情感表征之外,我们还提出了一种基于图神经网络的隐性情感表征学习方法。由于缺乏带有情感标注的数据集,我们利用大量的表达性数据集来通过半监督学习对所提出的模型加强训练。实验结果表明,该方法能提高合成语音的自然性和表达性,且优于基线模型。
Global Signal-to-noise Ratio Estimation Based on Multi-subband Processing Using Convolutional Neural Network
全局信噪比(gSNR)定义为整个含噪音频中语音能量与噪声能量的比值。然而,由于噪声干扰的增加,当将传统特征(如原始波形和MFCCs)直接输入统计模型来估计单个全频带gSNR时,泛化能力将下降。本文提出了一种基于多子带的gSNR估计网络(MSGNet)。
具体来说,我们将带噪声的语音波形分解为Bark-刻度的不同子带,以获得更高分辨率的中低频信号。然后,利用卷积神经网络学习非线性函数,根据输入的多子带特征估计各子带的语音和噪声能量比。最后,通过对不同语音能量和噪声能量的子带进行整合,计算出全带的gSNR。在AURORA-2J数据集上的大量实验结果表明,与其他基线gSNR估计方法相比,所提出的MSGNet显著降低了平均绝对误差。
Monaural Speech Enhancement Based on Spectrogram Decomposition for Convolutional Neural Network-sensitive Feature Extraction
许多最先进的语音增强系统采用卷积神经网络(CNN)来提取多尺度特征图。然而,CNN 更多地依赖于局部纹理而不是全局形状,这更容易受到频谱图退化的影响,并且可能无法捕捉到语音的详细结构。虽然一些双阶段系统将第一阶段增强的原始噪声谱图同时馈送到第二阶段,但这并不能保证对第二阶段的足够指导,因为第一阶段的谱图不能提供精确的语谱图细节。为了让 CNN 感知清晰的语音成分边界信息,我们根据第一阶段的掩码值将特征图与包含明显语音成分的谱图组合在一起。将大于特定阈值的掩码对应的位置提取为特征图。这些特征图通过忽略其他来使语音成分的边界信息变得明显,从而使 CNN 对输入特征敏感。在 voice-bank 数据集上的实验表明,通过适当的分解数,所提出的方法可以提高语音增强的性能,可以提供 0.15 PESQ 的提升。此外,所提出的方法对于语谱图细节恢复更有效。
MIMO-DoAnet: Multi-channel Input and Multiple Outputs DoA Network with Unknown Number of Sound Sources
基于神经网络的来波方向 (DoA) 估计算法通常将多通道音频输入映射到单个输出,即所有源的空间伪频谱 (SPS),称为 MISO 算法。然而,这种MISO算法强烈依赖于经验阈值设置和声源之间的角度假设大于固定角度。为了解决这些限制,我们提出了一种新的多通道输入和多输出 DoA 估计网络,称为 MIMO-DoAnet 。与一般的 MISO 算法不同,MIMO-DoAnet 利用信息空间协方差矩阵来预测每个声源的 SPS 编码。这样一来,检测声源数量的阈值任务就变得更容易,只需检测每个输出中是否有声源,声源之间的相互干扰也在推理阶段消失。实验结果表明,在三声源和四声源场景下,MIMO-DoAnet 与 MISO 基线系统相比,F1指标分别提高了 18.6% 和 13.3%、34.4% 和 20.2%。结果还表明 MIMO-DoAnet 有效地缓解了阈值设置问题,解决了角度假设问题。
VCSE: Time-Domain Visual-Contextual Speaker Extraction Network
根据神经科学的启发,人类在交谈的时候不仅仅会关注目标说话人的声音,还会观察嘴唇的运动以及理解语言上下文之间的关系。 我们在现有语音-视觉模态的目标说话人提取算法AV-ConvTasnet基础上,添加了语义的信息。首先利用AV-ConvTasnet预提取目标语音,然后利用ASR提取文本或者音素信息,最终利用文本编码器获取音素序列之间的关系从而引入上下文信息。实验表明文本信息能够在AV-ConvTasnet 的基础上进一步提升语音分离的性能。
Iterative Sound Source Localization for Unknown Number of Sources
针对声源数量未知的实际问题,现有定位算法预测基于似然概率的编码(即空间谱),并使用预先确定的阈值来检测声源数量和来波方向 (DOA)。然而,由于受到阈值选择的限制,这些基于阈值的方法并不稳定。我们提出了一种迭代声源定位方法 ISSL,该方法可以迭代提取每个声源的 DOA,直到满足终止条件。如此,ISSL 就可以处理任意数量的声源。实验结果表明,与现有的基于阈值的方法相比,该方法在 DOA 估计和声源数量检测两方面都取得了显著的性能改进。
Hierarchical Tagger with Multi-task Learning for Cross-domain Slot Filling
在面向任务的对话系统中,槽填充旨在识别话语中每个标记的语义槽类型。但很多场景缺乏足够的监督数据导致模型性能低下,因此需要跨域槽填充来迁移知识。先前的研究侧重于提供附加描述间接地建立域间相似槽的联系,但未充分利用先验信息与有限数据。我们主要做了两项改进。首先,基于预训练模型,我们使用分层框架并在相似层的辅助信息中添加域描述以增强该联系。其次,我们设立辅助网络用于独立微调,期间使用多任务学习,其中设置域检测任务,与域描述呼应。此外,我们还采用对抗性正则化,避免过拟合。在SNIPS数据集上的实验结果表明我们的模型显著优于最佳基线,就微F1分数而言,在0-shot、20-shot和50-shot实验设置上,提升分别可达16.11%、11.06%和8.77%。这表明我们的模型具有更好的泛化能力,尤其是对于特定于域的槽。
TopicKS: Topic-driven Knowledge Selection for Knowledge-grounded Dialogue Generation
基于外部知识的对话生成方法被提出用于解决传统端到端对话生成方法中生成回复无意义问题。它一般包括两个子模块:知识选择和知识感知生成。然而大多数研究只考虑的主题信息在知识生成中的应用,而在知识选择中忽视了它的作用。它可能会导致整体对话与所选知识之间的主题不匹配,从而导致生成的响应与上下文不一致。所以,在这项研究中,我们提出了一个主题驱动的知识选择方法(TopicKS)在知识中利用主题信息选择知识和生成回复。具体来说,TopicKS在主题信息的引导下,根据上下文信息和历史知识信息,为当前轮对话选择更准确的候选知识。然后解码器使用上下文信息和选择的知识在主题信息的指导下生成更高质量的响应。在著名的基准语料库向导 Wizard of Wikipedia (WoW) 上的实验表明,我们提出的方法不仅在知识选择的准确率方面取得了显着的提高,而且在生成响应的质量也优于基线模型。
Self-Distillation Based on High-level Information Supervisionfor Compressing End-to-End ASR Model
端到端语音识别的模型压缩算法旨在降低模型参数量的同时尽可能的减少模型的性能损失。知识蒸馏是一种高效的模型压缩算法,能够将一个大规模的教师模型的知识迁移到小规模的学生模型中。然而,绝大多数已经存在的知识蒸馏方法都聚焦于如何充分利用教师模型的知识,而忽略学生模型本身的知识。因此,我们提出了两种新颖的特征自蒸馏方法,称为NFSD和AFSD。提出的方法旨在用模型本身的高层信息来监督底层网络的训练。实验表明,我们提出的方法能够在没有大规模教师模型的基础上大幅度提升模型本身的性能,并且超过了教师-学生知识蒸馏方法。
Data Augmentation Using McAdams-Coefficient-Based Speaker Anonymization for Fake Audio Detection
虚假音频检测 (FAD) 是一种区分合成语音和自然语音的技术。对于大多数 FAD 系统,从语音中抹去不相关的特征,同时只保留鲁棒的特征是很有必要的。主观地,在FAD任务中,说话人信息应该被抑制。特别是在基于 DNN 的 FAD系统中,DNN可能会从训练数据集中学习到说话人信息,并且不能很好地在测试数据集上泛化。在本文中,我们使用说话人匿名化 (SA) 技术来抑制声学语音中的说话人信息,然后再将其输入基于 DNN 的 FAD 系统。在音频深度合成检测挑战赛(ADD2022)数据集上的实验结果表明,从语音中去除说话人信息可以有效提升 FAD 的正确率。
未来,天津大学-慧言科技人工智能联合实验室将继续在语音领域发力,推动语音行业的发展。
为了让更多用户了解慧言语音交互系统,慧言科技推出了AI体验中心微信小程序,您可以点击下方链接,快速体验最先进的语音识别技术,以及相关的智能语音交互技术。
慧言科技简介
慧言科技(天津)有限公司依托于天津大学天津市认知计算与应用重点实验室,公司围绕细分领域场景进行语音产品研发,拥有语音识别、语音合成、机器翻译、对话系统、声纹识别等自主研发技术,旨在提供语音技术细分领域的实际应用和解决方案,为用户带来“锦上添花”、“雪中送炭”的定制化体验,提高人们的生活质量。
商务合作 CONTACT INFORMATION
联系电话商务邮箱bd@huiyan-tech.com